Например, Бобцов

Метод формирования сегментов информационной последовательности с использованием функционала качества моделей обработки

Аннотация:

Введение. Постоянно возникающая потребность увеличения эффективности решения задач классификации и предсказания поведения объектов наблюдения вызывает необходимость совершенствования методов обработки данных. В работе предлагается метод повышения показателей качества моделей машинного обучения в задачах регрессии и прогнозирования. Метод. Предложенная обработка информационных последовательностей предполагает применение сегментации входных данных. В результате разделения данных образуются сегменты с различными свойствами объектов наблюдения. Новизна метода заключается в разделении последовательности на сегменты c использованием функционала качества моделей обработки на подвыборках данных. Это позволяет применять лучшие по качественным показателям модели на разных сегментах данных. Полученные сегменты являются отдельными подвыборками, на которые назначаются лучшие по качественным показателям модели и алгоритмы машинного обучения. Основные результаты. Для оценки качества предлагаемого решения выполнен эксперимент с использованием модельных данных и множественной регрессии. Рассчитанные значения показателя качества Root Mean Squared Error (RMSE) для выбранных алгоритмов на экспериментальной выборке и при различном количестве сегментов продемонстрировали повышение качественных показателей отдельных алгоритмов при увеличении количества сегментов. Предлагаемый метод позволяет повысить показатели RMSE в среднем на 7 % за счет сегментации и назначения моделей, которые имеют наилучшие показатели в отдельных сегментах. Обсуждение. Результаты метода могут применяться дополнительно при разработке моделей и методов обработки данных. Представленное решение направлено на дальнейшее усовершенствование и расширение ансамблевых методов. Формирование многоуровневых модельных структур, осуществляющих обработку, анализ поступающих информационных потоков и назначение наиболее подходящей модели для решения текущей задачи, позволяет уменьшить сложность и ресурсоемкость классических ансамблевых методов. В результате уменьшено влияние проблемы переобучения, снижена зависимость результатов обработки от базовых моделей, повышена оперативность настройки базовых алгоритмов в случае трансформации свойств данных и улучшена интерпретируемость результатов.

Ключевые слова:

Статьи в номере